引言 高通量的原始数据通常情况下会上传到NCBI的SRA(Sequence Read Archive)数据库。 常见的下载方法有^5^: aspera 工具下载 wget, curl命令直接下载 NCBI官方的 SRA Toolkit 进行下载 aspera 工具配置麻烦, 直接下载容易出错, 所以使用SRA-Toolkit 过程 使用 SRA-Toolkit 工具进行下载 下载 SRA-Toolkit 工具并安装 主要流程来源于官方教程及网络^1-2^. 官方教程链接: 02. Installing SRA Toolkit · ncbi/sra-tools Wiki · GitHub https://github.com/ncbi/sra-tools/wiki/02. SRA数据转化为fastq文件 使用SRA-Toolkit中的fastq-dump工具将SRA数据转化为fastq文件。 转换之前需要知道我们拿到的数据是单端还是双端数据^3^。
工欲善其事必先利其器 SRA Toolkit SRA Toolkit 是由美国国家生物技术信息中心(NCBI)提供的一组工具,专门用于处理 Sequence Read Archive(SRA)中存储的高通量测序数据 这个工具包包含了一系列命令行工具,用于检索、转换、处理和分析来自 SRA 的数据。 SRA 中检索数据,提供强大的查询和过滤功能 数据处理与压缩:支持对 SRA 数据进行基本的处理、压缩和格式转换,以满足用户需求 质量控制与分析:提供了一些工具和选项,用于质量控制、测序数据的初步分析和统计 其中的数据则是通过压缩后以.sra文件格式来保存的。 所以整个转换过程,大概需要sra文件的17倍左右的空间。
COCO Dataset 数据特点 COCO数据集有超过 200,000 张图片,80种物体类别. 所有的物体实例都用详细的分割mask进行了标注,共标注了超过 500,000 个物体实体. horse motorbike person pottedplant sheep sofa train tvmonitor } COCO Dataset
因为恰好遇到了PRJNA752099这个数据集,他上传的fastq文件被合并成了一个,所以我需要下载SRA文件重新拆分。正好作为上游最后一块的补充内容。 下载sratoolkitwget --output-document sratoolkit.tar.gz https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current sratoolkit.tar.gzexport PATH=$PATH:$PWD/sratoolkit.3.1.1-ubuntu64/binfaster-dump --help我事先下载了PRJNA752099的4个SRA
原始数据需要上传到SRA, 有processed data的可以上传到GEO。否则就需要上传到SRA dataset。 Troubleshooting了3-4h,终于搞清楚了。 Mac OS terminal:(There is standard introduction in the SRA submission page to guide users how to upload
1.sra toolkit 的安装 wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.8/sratoolkit.2.10.8-ubuntu64.tar.gz SraAccList.txt looks like this: SRR11192680 SRR11192681 SRR11192682 SRR11192683 SRR11192684 4.SRA format to fastq fasterq-dump --split-files SRR11180057.sra fasterq-dump --split-files SRR11180057 #直接下载原始的 fastq prefetch --type fastq SRR11180057 参考:https://www.ncbi.nlm.nih.gov/sra/docs/sradownload/
-k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR620/SRR6208854 /SRR6208854.sra ~/Seqs/ 二、 Aspera批量下载SRA文件 很多时候需要同时下载多个SRA文件,ascp命令提供参数--file-list,用于批量下载SRA文件。
cpus-per-task=24 --time=35:59:00 module load sratoolkit #download the SRR_Acc_List.txt (sample list) from SRA website cd /data/$userID/ITP mkdir sra nohup cat SRR_Acc_List.txt | while read id; do fasterq-dump - /sra/; done & #-t ./ will save the tmp downloading files, and will be deleted when the download is finished #-O save the output (fastq files, not sra files) in the sra folder.
通过使用DataSet可以省去我们使用list接收数据后的封装过程,DataSet中所存的是DataTable。下面写一个使用DataSet取得数据的通用数据访问类。 public static DataSet GetDataSet(string sql) { SqlConnection conn = new SqlConnection SqlCommand(sql,conn); SqlDataAdapter da = new SqlDataAdapter(cmd);//创建数据适配器对象 DataSet ds = new DataSet();//创建一个内存数据集 try { conn.Open();
sender, EventArgs e) { Response.Redirect("~/Login.aspx"); //构建新的dataset ,并用Cache.Get()方法的结果为它赋值, //该方法返回匹配指定键名的Object实列.所以要阄它转化为dataset类型 DataSet dst = (DataSet)Cache.Get("CachedDataSet"); //如果dst中没有内容即为空 SqlDataAdapter dap = new SqlDataAdapter(cmd); dst = new DataSet } else { //dataset
二,应用数据转换 Dataset数据结构应用非常灵活,因为它本质上是一个Sequece序列,其每个元素可以是各种类型,例如可以是张量,列表,字典,也可以是Dataset。 Dataset包含了非常丰富的数据转换功能。 map: 将转换函数映射到数据集每一个元素。 flat_map: 将转换函数映射到数据集的每一个元素,并将嵌套的Dataset压平。 zip: 将两个长度相同的Dataset横向铰合。 concatenate: 将两个Dataset纵向连接。 reduce: 执行归并操作。 batch : 构建批次,每次放一个批次。 window :构建滑动窗口,返回Dataset of Dataset. shuffle: 数据顺序洗牌。 repeat: 重复数据若干次,不带参数时,重复无数次。
Pytorch提供了几个有用的工具:torch.utils.data.Dataset 类和 torch.utils.data.DataLoader 类 。 流程是先把原始数据转变成 torch.utils.data.Dataset 类,随后再把得到的 torch.utils.data.Dataset 类当作一个参数传递给 torch.utils.data.DataLoader 所以整体的流程是 数据=》Datasets=》DataLoader 在 pytorch 中,提供了一种十分方便的数据读取机制,即使用 torch.utils.data.Dataset 与 Dataloader 二.Datasets类 如果我们要自己定义一个读取数据的方法,就得继承torch.utils.data.Dataset这个父类,并且需要重写两个方法 我们可以看一下Dataset父类的源码: class Dataset(object): """An abstract class representing a Dataset.
高通量的原始数据通常情况下会上传到NCBI的SRA(Sequence Read Archive)数据库。当我们需要用到这些数据的时候,就需要合适的方法来下载。 所以,最稳定最安心的方法是使用SRA Toolkit中的 prefect来下载。 ? 下载安装SRA Toolkit: https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software ? 如果你有其他的更好的下载方法,欢迎留言或者私信后台交流~ 参考: https://github.com/ncbi/sra-tools https://github.com/ncbi/sra-tools /wiki/HowTo:-Access-SRA-Data
使用 3.1 下载地址 NCBI的FTP下载链接:ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR507/SRR5077625 /SRR5077625.sra EBI的aspera下载链接era-fasp@fasp.sra.ebi.ac.uk:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06 .sff NCBI的aspera下载链接:anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR507 /sra-instant/reads/ByRun/sra/SRR/SRR507/SRR5077625/SRR5077625.sra . /sra-instant/reads/ByRun/sra/SRR/SRR507/SRR5077625/SRR5077625.sra 下载路径 .
虽然NCBI的SRA(Sequence Read Archive)数据库提供了大量的测序数据,但由于网络访问速度的限制,特别是从国内访问时,下载速度可能受到严重影响。 EBI的ENA数据库与NCBI的SRA数据库类似,存储了大量的测序数据,并且提供了多种下载方式。其中,enaBrowserTools结合Aspera的方式因其高效和便捷性而受到推荐。 This flag is ignored for fastq and sra format options. This flag is ignored for fastq and sra format options. /sra# /disk/share/toolkits/enaBrowserTools-1.6/python3/enaDataGet -f sra SRR212430 -d .
今天要上NCBI下载sra数据发现没有下载的链接,网上查发现都是老的方法,NCBI页面已经变更,于是看了NCBI的help,并且记录下来新版的sra数据下载方法,要用NCBI的工具SRA Toolkit 方法1 NCBI告知的方法(中断不能继续下载) 下载SRA Tookit https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi? 下载后直接解压到某个指定位置 搜索SRA并获取accesion list 在NCBI sra页面(https://www.ncbi.nlm.nih.gov/sra)输入登陆号( accession number 更详情的请查看prefetch 帮助:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi? /reads/ByRun/sra/SRR/SRR548/SRR5483090/ 可见ftp构成: ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun
除了利用ascp命令从NCBI下载SRA文件外,SRAtoolkit也提供了prefetch命令用于下载SRA文件。 prefetch命令用法如下: Usage: prefetch [options] <SRA accession | kart file> [...] Download SRA or dbGaP files and their dependencies prefetch [options] <SRA file> [...] 而SRA文件会默认下载在~/ncbi/public/sra 目录下 prefetch命令下载多个SRA文件: 1. 详细说明参见官方Documentation: https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?
Pytorch通常使用Dataset和DataLoader这两个工具类来构建数据管道。 3,Dataset和DataLoader的主要接口 以下是 Dataset和 DataLoader的核心接口逻辑伪代码,不完全和源码一致。 ,batch_size,collate_fn,shuffle = True,drop_last = False): self.dataset = dataset self.sampler 继承 torch.utils.data.Dataset 创建自定义数据集。 调用Dataset的加法运算符(+)将多个数据集合并成一个数据集。
XmlDatasetConvert 该类提供了四种方法: 1、将xml对象内容字符串转换为DataSet 2、将xml文件转换为DataSet 3、将DataSet转换为 xml对象字符串 4、将DataSet转换为xml文件 using System; using System.Collections.Generic; using System.Text public static DataSet ConvertXMLToDataSet(string xmlData) { StringReader ds = new DataSet(); 转换一个XML文件(本地\网络均可)为一个DataSet 构造一个DataSet,并转换为XML字符串 转换一个XML字符串为一个DataSet 转换一个Dataset为一个XML文件 Console.ReadLine(); }
生信技能树已经很贴心地把sra格式数据全部下载。共5.3个T。 查看共多少样本 (base) pc@pc-System-Product-Name:/data/fudan_TNBC$ ls -l |grep "^-"|wc -l 727 把/data/fudan_TNBC/下的sra for id in `seq 8223 8454`; do nohup sudo fastq-dump --gzip --split-3 /data/fudan_TNBC/SRR851${id}.sra done nohup for id in `seq 854 999`; do sudo fastq-dump --gzip --split-3 /data/fudan_TNBC/SRR8517{id}.sra -O .; done & for ((i=854;i<=999;i++));do sudo fastq-dump --gzip --split-3 -A SRR35899$i.sra -O .